为了使用各种类型的数据理解现实世界,人工智能(AI)是当今最常用的技术。在分析数据中找到模式的同时表示主要任务。这是通过提取代表性特征步骤来执行的,该步骤是使用统计算法或使用某些特定过滤器进行的。但是,从大规模数据中选择有用的功能代表了至关重要的挑战。现在,随着卷积神经网络(CNN)的发展,功能提取操作变得更加自动和更容易。 CNN允许处理大规模的数据,并涵盖特定任务的不同方案。对于计算机视觉任务,卷积网络也用于为深度学习模型的其他部分提取功能。选择合适的网络用于特征提取或DL模型的其他部分不是随机工作。因此,这种模型的实现可能与目标任务以及其计算复杂性有关。已经提出了许多网络,并成为任何AI任务中任何DL模型的著名网络。这些网络被利用用于特征提取或在任何名为骨架的DL模型的开头。骨干是以前在许多其他任务中训练并证明其有效性的已知网络。在本文中,现有骨干的概述,例如详细说明给出了VGG,Resnets,Densenet等。此外,通过对所使用的骨干进行审查,讨论了几个计算机视觉任务。此外,还基于每个任务的骨干,还提供了性能的比较。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
图像分类是计算机视觉中最重要的领域之一。当根据层次结构或分类学排列多级图像分类问题时,层次多标签分类适用于较小的图像分类问题。因此,分层分类模式通常在每个实例上提供多个类预测,从而期望这些模式反映图像类的结构相互关联。在本文中,我们提出了用于分层分类的多标签胶囊网络(ML-CAPSNET)。我们的ML-CAPSNET根据分层类标签树结构预测多个图像类。为此,我们提出了一个损失函数,该函数考虑了网络的多标签预测。结果,我们的ML-CAPSNET的训练方法使用粗到细的范式,同时与标签层次结构中的分类水平保持一致。我们还使用广泛可用的数据集执行实验,并将模型与文献其他地方的替代方案进行比较。在我们的实验中,我们的ML capsnet在这些替代方法方面产生了改善的余地。
translated by 谷歌翻译
在这个大数据时代,当前一代很难从在线平台中包含的大量数据中找到正确的数据。在这种情况下,需要一个信息过滤系统,可以帮助他们找到所需的信息。近年来,出现了一个称为推荐系统的研究领域。推荐人变得重要,因为他们拥有许多现实生活应用。本文回顾了推荐系统在电子商务,电子商务,电子资源,电子政务,电子学习和电子生活中的不同技术和发展。通过分析有关该主题的最新工作,我们将能够详细概述当前的发展,并确定建议系统中的现有困难。最终结果为从业者和研究人员提供了对建议系统及其应用的必要指导和见解。
translated by 谷歌翻译
由于其在非洲以外的40多个国家 /地区的迅速传播,最近的蒙基托克斯爆发已成为公共卫生问题。由于与水痘和麻疹的相似之处,蒙基托斯在早期的临床诊断是具有挑战性的。如果不容易获得验证性聚合酶链反应(PCR)测试,那么计算机辅助检测蒙基氧基病变可能对可疑病例的监视和快速鉴定有益。只要有足够的训练示例,深度学习方法在自动检测皮肤病变中有效。但是,截至目前,此类数据集尚未用于猴蛋白酶疾病。在当前的研究中,我们首先开发``Monkeypox皮肤病变数据集(MSLD)。用于增加样本量,并建立了3倍的交叉验证实验。在下一步中,采用了几种预训练的深度学习模型,即VGG-16,Resnet50和InceptionV3用于对Monkeypox和Monkeypox和Monkeypox和其他疾病。还开发了三种型号的合奏。RESNET50达到了82.96美元(\ pm4.57 \%)$的最佳总体准确性,而VGG16和整体系统的准确性达到了81.48美元(\ pm6.87 \%)$和$ 79.26(\ pm1.05 \%)$。还开发了一个原型网络应用程序作为在线蒙基蛋白筛选工具。虽然该有限数据集的初始结果是有希望的,但需要更大的人口统计学多样化的数据集来进一步增强性增强性。这些的普遍性 楷模。
translated by 谷歌翻译
空中触觉创造了一种新的反馈方式,以使人们能够在空中感觉到触觉。超声波阵列聚焦在空间中的声音辐射压力,以引起由此产生的皮肤偏转的触觉感觉。在这项工作中,我们提出了一个低成本的触觉机器人,以测试空中触觉。通过将桌面机器人组与3D打印的仿生触觉传感器相结合,我们开发了一个可以感知,映射和可视化超声传感器阵列产生的空气触觉感觉的系统。我们通过对各种空气中的触觉刺激进行测试,包括未经调节和调节的焦点来评估触觉机器人。我们将刺激的映射与用于测试空气中触觉的另一种方法的映射:激光多普勒振动法,突出了触觉机器人的优势,包括较低的成本,轻巧的表格因子和易用性。总体而言,这些发现表明我们的方法具有感知空气中触觉的多重好处,并为扩展测试以更好地模仿人触觉感知开辟了新的可能性。
translated by 谷歌翻译
可解释的深度学习模型的最新努力表明,基于概念的解释方法通过标准的端到端模型实现了竞争精度,并能够从图像中提取高级视觉概念的推理和干预,例如识别机翼颜色和喙长度用于鸟类分类。但是,这些概念瓶颈模型依赖于一组必要且充分的预定义概念,这对于诸如视频分类等复杂任务很棘手。对于复杂的任务,标签和视觉元素之间的关系涵盖了许多框架,例如,识别出具有各种抽象水平的鸟类飞行或捕获猎物不必要的概念。为此,我们提出了Codex,这是一个自动概念发现和提取模块,严格地构成了基于概念的视频分类的必要且充分的概念摘要集。 Codex从自然语言解释视频解释中确定了一系列复杂的概念摘要,从而需要预先定义一组无定形的概念集。为了证明我们的方法的生存能力,我们构建了两个新的公共数据集,这些数据集将现有的复杂视频分类数据集与其标签的简短,众包的自然语言解释相结合。我们的方法在自然语言中引发了固有的复杂概念摘要,以将概念 - 底层方法推广到复杂的任务。
translated by 谷歌翻译
Chiplets have become a common methodology in modern chip design. Chiplets improve yield and enable heterogeneity at the level of cores, memory subsystem and the interconnect. Convolutional Neural Networks (CNNs) have high computational, bandwidth and memory capacity requirements owing to the increasingly large amount of weights. Thus to exploit chiplet-based architectures, CNNs must be optimized in terms of scheduling and workload distribution among computing resources. We propose Shisha, an online approach to generate and schedule parallel CNN pipelines on chiplet architectures. Shisha targets heterogeneity in compute performance and memory bandwidth and tunes the pipeline schedule through a fast online exploration technique. We compare Shisha with Simulated Annealing, Hill Climbing and Pipe-Search. On average, the convergence time is improved by ~35x in Shisha compared to other exploration algorithms. Despite the quick exploration, Shisha's solution is often better than that of other heuristic exploration algorithms.
translated by 谷歌翻译
最近的语音情绪识别分析与使用MFCCS频谱图特征和实现诸如卷积神经网络(CNNS)的神经网络方法的实施进行了相当大的进展。胶囊网络(CAPSNET)对CNN的替代品感谢其具有较大容量的分层表示。为了解决这些问题,本研究介绍了独立于文本和独立的讲话者独立的SER新颖体系结构,其中基于结构特征提出了双通道长短短期内存压缩帽(DC-LSTM Compsnet)算法Capsnet。我们所提出的新型分类器可以确保语音情感识别中模型和足够的压缩方法的能效,这不会通过彩铃的原始结构提供。此外,网格搜索方法用于获得最佳解决方案。结果目睹了培训和测试运行时间的性能和减少。用于评估我们的算法的语音数据集是:阿拉伯语Emirati-Egrented语料库,模拟和实际压力语料库下的英语演讲,情感语音和歌曲语料库的英语Ryerson Audio-Visual数据库,以及人群源性情绪多模式演员数据集。这项工作揭示了与其他已知方法相比的最佳特征提取方法是MFCCS Delta-Delta。使用四个数据集和MFCCS Delta-Delta,DC-LSTM CompsNet超越了所有最先进的系统,古典分类器,CNN和原始帽。我们的结果表明,基于Capsnet的拟议工作产生了89.3%的平均情绪识别准确性,其结果表明,拟议的工作产生了89.3%的89.3%。 CNN,支持向量机,多层Perceptron,K-最近邻居,径向基函数和幼稚贝叶斯。
translated by 谷歌翻译